Национальный корпус русского языка — представительная коллекция текстов
на русском языке
общим объемом более 2 млрд слов,
оснащенная лингвистической разметкой и инструментами поиска
Поиск по корпусам
Новости
Показать всеВ Синтаксическом корпусе усовершенствован поиск по микросинтаксическим конструкциям. При установке курсора в поисковое поле появляется полный список из более чем 3200 единиц. Введя букву или последовательность букв, можно получить все единицы, в которые они входят.
В браузерной версии сайта можно увидеть примеры реализации конструкций, содержащих переменные: они отображаются при наведении курсора мыши на название микросинтаксической конструкции.
Доступен поиск по нескольким микросинтаксическим единицам с использованием логического оператора ИЛИ (|). После того, как в поисковом поле выбрана первая микросинтаксическая конструкция, помещение курсора в поле автоматически добавляет знак дизъюнкции к запросу к условию. Логический оператор И (&) в этом поисковом поле не поддерживается. В то же время, поиск слов, входящих одновременно в несколько конструкций, можно выполнить при помощи условий на несколько последовательных слов, указав расстояние 0 между ними. По-прежнему работает оператор «звездочка», с его помощью можно найти слова, входящие в любую микросинтаксическую конструкцию.
Команда Национального корпуса русского языка представит две статьи на крупнейшей лингвистической конференции — ACL 2025!
На основной секции конференции будет представлена статья BERT-like Models for Slavic Morpheme Segmentation. В этой работе при построении морфемных разборов для трёх славянских языков – русского, белорусского и чешского – мы использовали дообученные BERT-подобные модели. Предложенный нами алгоритм позволил превзойти существующие подходы для русского и чешского: количество ошибок в разметке уменьшилось в полтора-два раза, особенно для корней, отсутствовавших в обучающей выборке. Кстати, обновлённая словообразовательная разметка, доступная в Основном корпусе, выполнена при помощи именно этого алгоритма!
На воркшопе Slavic NLP-2025 мы выступим с работой, посвящённой улучшению нашей модели лемматизации. Несмотря на высокое качество автоматически присваиваемых лемм (98,8% правильных разборов на тестовой выборке), мы продолжаем работать над устранением оставшихся ошибок, ведь при сегодняшних размерах НКРЯ даже 0,1% некорректной лемматизации приводят к нескольким миллионам ошибок. Использование ансамбля из модели Rubic и дообученной модели BART позволило повысить качество и достичь более 99% правильных лемм, в частности, улучшилась лемматизация имён собственных и некоторых сокращений.
Мы активно работаем над развитием методов лингвистической разметки текстов. Большинство разработанных нами моделей доступно на соответствующей странице Корпуса.
В феврале мы сообщали о появлении в Портрете слова нового виджета «Толкования» для 5,5 тысяч слов. Теперь в Портрете слова Основного корпуса доступны автоматически сгенерированные определения для примерно 96 тысяч слов, что значительно расширяет справочные возможности сервиса. Толкования охватывают существительные, прилагательные, глаголы и наречия, представленные в корпусе.
Толкования доступны как для общеупотребительных слов, так и для неологизмов — например, кидалт и байопик. При создании определений мы руководствовались четырьмя принципами: корректность (соответствие действительности), доступность для понимания учащимися средней школы, грамотность с точки зрения русского языка и неизбыточность формулировок.
Эксперименты по генерации толкований проведены при поддержке Центра технологий для общества Yandex Cloud. В настоящее время функционал доступен в режиме бета-тестирования для авторизованных пользователей. Приглашаем вас оставлять обратную связь с помощью кнопки «Оценить» — это поможет нам совершенствовать качество толкований.